Coûts de distance d'édition pour la Recherche d'Information XML

نویسندگان

  • Cyril Laitang
  • Karen Pinel-Sauvagnat
  • Mohand Boughanem
چکیده

Structured information retrieval (SIR) on XML documents allows to retrieve focused parts of documents that match the user needs. These needs can be expressed throught content and structured queries, that as well as XML documents can be represented as trees. Our approach uses these trees through tree edit distance to estimate the relevance of XML elements. Tree edit distance is the minimum set of insert, delete, and replace operations to turn one tree to another. The effectiveness of tree edit distance strongly relies on these costs. In this paper we will study the estimation of these costs in the context of SIR. Our model was evaluated over the SSCAS INEX’s 2005 task as well as the INEX’s 2010 Datacentric track and our first results show the interest of such an approach. MOTS-CLES : Recherche d’information structurée, graphes, XML, distance d’édition, DTD.

برای دانلود رایگان متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Recherche approchée d'information dans une base de documents semi-structurés

RÉSUMÉ. Nous proposons des algorithmes dédiés à l'indexation et à la recherche approximative d'information dans les bases de données hétérogènes semi-structurées XML. Le modèle d'indexation proposé est adapté à la recherche de contenu textuel dans les contextes XML définis par les structures d'arbres. Les mécanismes de recherche approchée mis en œuvre s’appuient sur une distance de Levenshtein ...

متن کامل

Utilisation de la théorie des graphes et de la distance d'édition pour la recherche d'information sur documents XML

Information retrieval on semi-structured documents like XML (SIR) allows the user to narrow his search down to the document element level. Queries and semi-structured documents could be seen as hierarchically nested elements. We consider that their structural proximity could be evaluated over their trees similarity. Our SIR approach combines both content and structure scores, the latter being b...

متن کامل

Alignement approximatif d'arbres pour la recherche d'information en contexte dans les données XML hétérogènes

d'information, distance d'édition de Levenstein, opérateurs de recherche basés sur des heuristiques. ABSTRACT. We propose specific data structures designed to the indexing and retrieval of information elements in heterogeneous XML data bases (originated from a set of WEB pages for instance). The indexing scheme is well suited to the management of various contextual searches, expressed either at...

متن کامل

Recherche d'information XML utilisant un principe de vote

RÉSUMÉ. Cet article décrit une approche pour la recherche d’information dans des collections de documents XML. Cette approche utilise une méthode de vote pour déterminer les éléments XML répondant à une requête. Une requête peut combiner des informations sur le contenu recherché, sur la granularité des éléments recherchés et sur les éléments structurels associés aux concepts recherchés. La méth...

متن کامل

Compression de structure XML pour la recherche d'information structurée

RÉSUMÉ. La recherche d’informations dans les documents structurés nécessite le stockage de la structure des documents indexés dans les index. Si de nombreuses méthodes sont connues et largement utilisées pour compresser les index pour les documents plats, le stockage efficient de la structure est peu étudié. Nous présentons une représentation de structure arborescente adaptée à la recherche d’i...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2012